2.Proceso de comprensión de los textos.
El proceso de comprensión o interpretación semántica del Lenguaje Natural se aborda con un conjunto de técnicas informáticas para facilitar un procesamiento del lenguaje y cuyo objetivo es la desambigüación a todos los niveles del modelo sincrónico del lenguaje(2): morfosintáctico, sintáctico, semántico y contextual. Los problemas en cada nivel se abordan de manera separada y se toma la solución de cada uno como entrada para el siguiente con el fin de simplificarlo.
Pasemos a comentar los niveles de Procesamiento de lenguaje natural (PLN):
a) Nivel morfológico
Se utiliza una técnica que consigue segmentar las palabras permitiendo el truncamiento de los términos, mediante un analizador morfológico basado en etiquetadores morfosintácticos capaces de abstraer las categorias gramaticales léxicas en lugar de palabras por lo tanto facilita la definición de las gramáticas y el proceso de análisis. Las etiquetas representan las categorías gramaticales y los rasgos morfológicos y la información de modo, tiempo y persona para los verbos.
Esta primera fase es considerada base del posterior análisis, y aunque no se consiga eliminar la incertidumbre o ambigüedad de las frases , se puede utilizar como preprocesador de las oraciones en PLN.
b) Nivel sintáctico
Se persigue la desambigüación de los términos, es decir del sentido de las palabras. Este segundo nivel de la investigación puede ser básica o más compleja.
La más básica o superficial bastara para identificar los componentes estructurales de las frases, sintagma nominal (SN), sintagma verbal (SV) y sintagmas preposicionales (SP), etc. Un análisis superficial consiste en dividir una oración en segementos no solapados que se corresponden con ciertas estructuras sintácticas, sin establecer relaciones funcionales de las mismas.
Un análisis más complejo, especificaría las relaciones entre los items de un texto (Barzilay,1997): referencia, elipsis, conjunción, e incluiría marcadores de cohesión léxica que señalen dónde y qué tipo de vínculos deben establecerse entre los elementos de una frase a través de la selección de las palabras por reiteración, colocación y también utilizando técnicas de encadenamiento de términos, en inglés lexical chains, referido a la cohesión pronominal, repetición, equivalencia, para aproximarse a una coherencia interna del texto y conseguir mayor calidad del resumen.
Los recursos lingüísticos que quedarían resueltos en este nivel son: las anáforas, las catáforas y los deícticos.
El problema de la anáfora consiste en resolver relaciones de correferencia existentes entre los sintagmas analizados.La catáfora agrupa los casos donde la expresión anafórica aparece antes. Los deícticos son marcadores usados para articular el enunciado o inscribirlo en un determinado discurso, son los adverbios de tiempo y lugar, demostrativos y pronombres personales.
En esta línea se han desarrollado técnicas automáticas para la eliminación de palabras vacías, a veces frecuentes en texto y con poca significación para resumen. Cabe mencionar los necesarios procesos de steming basados en la combinación de reglas y excepciones de la base de conocimiento, que permiten controlar la existencia de palabras en distintas formas (tiempos verbales, plurales...) reduciendo sus variantes a la forma léxica canónica.
c) Nivel semántico
El analizador semántico facilita la aplicación de procedimientos de razonamiento que asigna significados a las estructuras creadas por el analizador sintáctico.
El problema primordial surge en el nivel interpretativo del texto, la ambigüedad y la imprecisión del lenguaje, tratará de resolverse en el tercer nivel. Si se pudiese transformar las estructuras lógico-semánticas en estructuras lógicas, el problema quedaría resuelto, puesto que las estructuras lógicas son precisamente maleables y sometidas a procesos de transformación y mecanización. En esta línea de investigación en inteligencia artificial se combinan varias disciplinas, psicología cognitiva, lingüistica y lógica .
El conocimiento semántico se representa mediante redes semánticas, conceptos simples relacionados entre sí para crear estructuras conceptuales complejas.
Cualquier sistema que pretenda trabajar sobre la información semántica de un documento precisa un módulo de desambigüación del sentido de las palabras (Word Sense Diambiguation, WSD); esto incluye bases de conocimiento sobre los términos y conceptos de cada dominio temático, recursos como ontologías , recursos léxicos y diccionarios como único modo de proceder a las interpretaciones.
Precisamente es la escasez de estos recursos léxicos los que obstaculizan la investigación de sistemas de PLN en español. La aparición de diferentes WordsNet dentro del proyecto EuroWordNet , y en particular el WordNet español, permitirá el desarrollo de aplicaciones que puedan incorporar módulos de WSD en sistemas de PLN en español.
d) Nivel contextual o pragmático
Los sistemas de generación automática de textos extraen parte del resultado final mediante una base de conocimiento, una vez son identificados los fragmentos pasan al módulo de solución de problemas donde se resolverá el perfil y el estilo adecuado, dependiendo de los objetivos a satisfacer.
Un módulo organizador del discurso transformará los segmentos de frases en oraciones bién formadas en lenguaje natural.
Posteriormente un módulo generador de frases construye el texto final en forma de párrafos, para ello se insertan puntuaciones y posteriormente se ordenan las oraciones en párrafos. Un gran precursor de este modelo de resumen es Borko- Bernier.
Debido a la gran proliferación de modelos y métodos en la investigación de los procesos automatizadores del PLN y sus dosis de combinación tan numerosas, se hace difícil la clasificación de unos sistemas o métodos que son híbridos en su mayoría.
En realidad se opta por establecer dos grandes agrupaciones metodológicas para la representación textual según se trate de métodos de extracción (basados en la estructura superficial) o de sumarización (basados en la estructura retórica y/o profunda) y finalmente hablaremos de métodos gráficos y relacionales.